变压器在许多视觉任务上表现出优选的性能。然而,对于人的任务重新识别(Reid),Vanilla变形金刚将丰富的背景留下了高阶特征关系,这是由于行人的戏剧性变化而不足的局部特征细节。在这项工作中,我们提出了一个全部关系高阶变压器(OH-Figrain)来模拟Reid的全系关系功能。首先,为了加强视觉表示的能力,而不是基于每个空间位置的对查询和隔离键获得注意矩阵,我们进一步逐步以模拟非本地机制的高阶统计信息。我们以先前的混合机制在每个订单的相应层中共享注意力,以降低计算成本。然后,提出了一种基于卷积的本地关系感知模块来提取本地关系和2D位置信息。我们模型的实验结果是优越的有前途,其在市场上显示出最先进的性能-1501,Dukemtmc,MSMT17和occluded-Duke数据集。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
Lifelong person re-identification (LReID) is in significant demand for real-world development as a large amount of ReID data is captured from diverse locations over time and cannot be accessed at once inherently. However, a key challenge for LReID is how to incrementally preserve old knowledge and gradually add new capabilities to the system. Unlike most existing LReID methods, which mainly focus on dealing with catastrophic forgetting, our focus is on a more challenging problem, which is, not only trying to reduce the forgetting on old tasks but also aiming to improve the model performance on both new and old tasks during the lifelong learning process. Inspired by the biological process of human cognition where the somatosensory neocortex and the hippocampus work together in memory consolidation, we formulated a model called Knowledge Refreshing and Consolidation (KRC) that achieves both positive forward and backward transfer. More specifically, a knowledge refreshing scheme is incorporated with the knowledge rehearsal mechanism to enable bi-directional knowledge transfer by introducing a dynamic memory model and an adaptive working model. Moreover, a knowledge consolidation scheme operating on the dual space further improves model stability over the long term. Extensive evaluations show KRC's superiority over the state-of-the-art LReID methods on challenging pedestrian benchmarks.
translated by 谷歌翻译
多代理增强学习(MARL)最近在各个领域取得了巨大的成功。但是,借助黑盒神经网络架构,现有的MARL方法以不透明的方式做出决策,使人无法理解学习知识以及输入观察如何影响决策。我们的解决方案是混合经常性的软决策树(MixRTS),这是一种可解释的新型结构,可以通过决策树的根到叶子路径来表示明确的决策过程。我们在软决策树中引入了一种新颖的经常性结构,以解决部分观察性,并通过仅基于局部观察结果线性混合复发树的输出来估算关节作用值。理论分析表明,混合物在分解中保证具有添加性和单调性的结构约束。我们在一系列具有挑战性的Starcraft II任务上评估MixRT。实验结果表明,与广泛研究的基线相比,我们的可解释的学习框架获得了竞争性能,并提供了对决策过程的更直接的解释和领域知识。
translated by 谷歌翻译
实例歧视对比学习(CL)在学习可转移表示方面取得了重大成功。与CL损失的温度$ \ tau $相关的硬度感知的属性被确定为在自动集中在硬性阴性样品上起着至关重要的作用。但是,先前的工作还证明了CL损失的均匀性困境(UTD)存在,这将导致意外的性能降解。具体而言,较小的温度有助于学习可分离的嵌入,但对语义相关样品的耐受性较小,这可能导致次优的嵌入空间,反之亦然。在本文中,我们提出了一种模型感的对比学习(MACL)策略来逃避UTD。对于训练不足的阶段,锚固的高相似性区域包含潜在的阳性样品的可能性较小。因此,在这些阶段采用较小的温度可以对硬性阴性样品施加更大的惩罚强度,以改善CL模型的歧视。相反,由于对潜在的阳性样品的耐受性,训练有素的相位较高的温度有助于探索语义结构。在实施过程中,MACL中的温度旨在适应反映CL模型置信度的对齐属性。此外,我们重新审查了为什么对比度学习需要在统一梯度降低的视角中大量负面样本。基于MACL和这些分析,在这项工作中提出了新的CL损失,以改善批量尺寸少量的学说和培训。
translated by 谷歌翻译
细分已成为计算机视觉和自然语言处理的基本领域,该领域将标签分配给每个像素/功能,以从图像/文本中提取感兴趣的区域。为了评估分割的性能,骰子和IOU指标用于衡量地面真理与预测分割之间的重叠程度。在本文中,我们建立了关于骰子/IOU指标的分割理论基础,包括贝叶斯规则和骰子/iou校准,类似于分类 - 校准或分类中的Fisher一致性。我们证明,与骰子/IOU指标相对于大多数操作损失的现有基于阈值的框架不一致,因此可能导致次优的解决方案。为了解决这一陷阱,我们提出了一个基于排名的一致框架,即rankdice/rankiou,灵感来自贝叶斯细分规则的插件规则。开发了三种具有GPU并行执行的数值算法,以在大规模和高维分段中实现所提出的框架。我们研究所提出的框架的统计特性。我们表明它是骰子 - 校准的,它的多余风险范围和收敛速度也提供了。在各种模拟示例,精细的城市景观和带有最先进的深度学习体系结构的Pascal VOC数据集中,证明了Rankdice/Mrankdice的数值有效性。
translated by 谷歌翻译
Multi-agent settings remain a fundamental challenge in the reinforcement learning (RL) domain due to the partial observability and the lack of accurate real-time interactions across agents. In this paper, we propose a new method based on local communication learning to tackle the multi-agent RL (MARL) challenge within a large number of agents coexisting. First, we design a new communication protocol that exploits the ability of depthwise convolution to efficiently extract local relations and learn local communication between neighboring agents. To facilitate multi-agent coordination, we explicitly learn the effect of joint actions by taking the policies of neighboring agents as inputs. Second, we introduce the mean-field approximation into our method to reduce the scale of agent interactions. To more effectively coordinate behaviors of neighboring agents, we enhance the mean-field approximation by a supervised policy rectification network (PRN) for rectifying real-time agent interactions and by a learnable compensation term for correcting the approximation bias. The proposed method enables efficient coordination as well as outperforms several baseline approaches on the adaptive traffic signal control (ATSC) task and the StarCraft II multi-agent challenge (SMAC).
translated by 谷歌翻译
少数拍摄识别旨在在低数据制度下识别新型类别。由于图像的稀缺性,机器不能获得足够的有效信息,并且模型的泛化能力极弱。通过使用辅助语义模式​​,基于最近的公制学习的少量学习方法已经取得了有希望的表现。但是,这些方法仅增强了支持类的表示,而查询图像没有语义模态信息以增强表示。相反,我们提出了属性形状的学习(ASL),其可以将可视化表示标准化以预测查询图像的属性。我们进一步设计了一个属性 - 视觉注意力模块(Avam),它利用属性来生成更多辨别特征。我们的方法使视觉表示能够专注于具有属性指导的重要区域。实验表明,我们的方法可以在幼崽和太阳基准上实现竞争结果。我们的代码可用于{https://github.com/chenhaoxing/asl}。
translated by 谷歌翻译
广义零射击学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类别的数据中识别源和目标类别。为了仅使用来自源类数据的数据训练,源和目标类之间的语义关系,我们解决了从信息理论观点的广告传输和语义关系的量化。为此,我们遵循原型模型,并将关注的变量格式化为概率向量。利用所提出的概率矢量表示,可以通过简单的封闭形式有效地评估诸如相互信息和熵的信息测量。我们讨论使用原型模型时常见的嵌入空间和距离功能的选择。然后我们提出了三个信息 - 理论丢失函数,用于确定性GZSL模型:桥接数据和目标类别的相互信息丢失;不确定性感知熵约束丢失,以防止使用后的数据学习嵌入目标类别时;在将语义表示映射到公共空间时,语义保留交叉熵损失以保留语义关系。仿真结果表明,作为确定性模型,我们所提出的方法获得了GZSL基准数据集的最新状态。我们通过基线模型 - 深度校准网络(DCN)实现了21%-64%的改进,并且首次证明了确定性模型可以执行和生成的模型。此外,我们提出的模型与生成模型兼容。仿真研究表明,通过与F-CLSWAN结合,与先进的生成模型相比,我们获得了可比的结果。
translated by 谷歌翻译
从有限的数据学习是一个具有挑战性的任务,因为数据的稀缺导致训练型模型的较差。经典的全局汇总表示可能会失去有用的本地信息。最近,许多射击学习方法通​​过使用深度描述符和学习像素级度量来解决这一挑战。但是,使用深描述符作为特征表示可能丢失图像的上下文信息。这些方法中的大多数方法独立地处理支持集中的每个类,这不能充分利用鉴别性信息和特定于特定的嵌入。在本文中,我们提出了一种名为稀疏空间变压器(SSFormers)的新型变压器的神经网络架构,可以找到任务相关的功能并抑制任务无关的功能。具体地,我们首先将每个输入图像划分为不同大小的几个图像斑块,以获得密集的局部特征。这些功能在表达本地信息时保留上下文信息。然后,提出了一种稀疏的空间变压器层以在查询图像和整个支持集之间找到空间对应关系,以选择任务相关的图像斑块并抑制任务 - 无关的图像斑块。最后,我们建议使用图像补丁匹配模块来计算密集的本地表示之间的距离,从而确定查询图像属于支持集中的哪个类别。广泛的少量学习基准测试表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译